2 research outputs found

    Improving the PoS tagging accuracy of Icelandic text

    Get PDF
    Proceedings of the 17th Nordic Conference of Computational Linguistics NODALIDA 2009. Editors: Kristiina Jokinen and Eckhard Bick. NEALT Proceedings Series, Vol. 4 (2009), 103-110. © 2009 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/9206

    Aukin mörkunarnákvæmni íslensks texta

    No full text
    Tölvunarfræði, ThesisIn this thesis, four attempts to improve the tagging accuracy for Icelandic text are presented. All of them were tested on IceTagger, a linguistic rule-based tagger with a tagging accuracy of 91.59%, and TnT, a data-driven tagger with a tagging accuracy of 90.45% for Icelandic. The first attempt was to reduce the number of tags in the Icelandic tagset. Various different reductions were tested. The set which gave the best result improved the tagging accuracy for IceTagger by 1.19% and for TnT by 1.45%. The second attempt was to use a larger dictionary which improved tagging by 0.56% for IceTagger and 0.69% for TnT. The third attempt was to improve tagging accuracy by integrating a lemmatizer for Icelandic into IceTagger to use for unknown wordforms of words which already appear in the lexicon in a different form. This did not show any noteworthy results. The last attempt was a combination of taggers. We used 7 taggers, IceTagger, BI+WC+CT, TnT, fnTBL, TreeTagger, MBT and MXPOST, and tested various combinations of them. The best combination, consisting of 5 taggers, gave a tagging accuracy of 93.74%, and 94.14% using a bigger dictionary. Lastly, the best combination, using a bigger dictionary and a reduced tagset, resulted in 94.99% accuracy.Fjórar aðferðir voru notaðar í þessu verkefni til að hækka nákvæmni markara fyrir íslenskan texta. Allar fjórar aðferðinar voru prófaðar á IceTagger, sem er málfræðilegur reglumarkari, en hann nær 91.59% nákvæmni og svo TnT, sem er gagnamarkari sem nær 90.45% nákvæmni fyrir íslensku. Fyrsta aðferðin var að minnka stærð íslenska markamengisins. Nokkrir möguleikar á minnku ðu markamengi voru prófaðir en breytingar á markamenginu sem ákveðnar voru hækkuðu nákvæmni um 1.19% fyrir IceTagger og um 1.45% fyrir TnT. Önnur aðferðin var að nota stærra orðasafn sem hækkaði nákvæmni um 0.56% fyrir IceTagger og um 0.69% fyrir TnT. Þriðja aðferðin var að setja lemmara inn í IceTagger til að leita að lemmu óþekktra orðmynda og fletta því svo upp í orðasafninu. Þetta bar engan árangur. Fjórða aðferðin var að sameina sjö mismunandi markara: IceTagger, BI+WC+CT, TnT, fnTBL, TreeTagger, MBT og MXPOST. Við prófuðum marga möguleika og fundum að besti árangur fékkst með samsetningu 5 markara. Nákvæmni hækkaði í 93.74% en 94.14% með notkun á stærra orðasafninu. Að lokum, með því að nota besta sameinaða markarann, stærri orðabók og minkað markamengi jókst nákvæmni í 94.99%
    corecore